1
Menghadapkan Paradigma Pemanfaatan Data: Spektrum Pelabelan
EvoClass-AI003Kuliah 10
00:00

Menghadapkan Paradigma Pemanfaatan Data: Spektrum Pelabelan

Keberhasilan penerapan model Machine Learning sangat bergantung pada ketersediaan, kualitas, dan biaya data yang telah diberi label. Dalam lingkungan di mana anotasi manusia mahal, tidak layak, atau sangat spesialis, paradigma standar menjadi tidak efisien atau bahkan gagal total. Kami memperkenalkan spektrum pelabelan, yang membedakan tiga pendekatan utama berdasarkan bagaimana mereka memanfaatkan informasi: Pembelajaran Terawasi (SL), Pembelajaran Tak Terawasi (UL), dan Pembelajaran Semi-Terawasi (SSL).

1. Pembelajaran Terawasi (SL): Kualitas Tinggi, Biaya Tinggi

SL bekerja pada dataset di mana setiap input $X$ secara eksplisit dipasangkan dengan label kebenaran sejati $Y$. Meskipun pendekatan ini biasanya mencapai akurasi prediksi tertinggi untuk tugas klasifikasi atau regresi, ketergantungannya pada anotasi yang padat dan berkualitas tinggi bersifat intensif sumber daya. Kinerja menurun drastis jika contoh yang dilabeli langka, membuat paradigma ini rapuh dan sering kali tidak layak dari segi ekonomi untuk dataset besar yang terus berkembang.

2. Pembelajaran Tak Terawasi (UL): Penemuan Struktur Tersembunyi

UL hanya bekerja pada data tanpa label, $D = \{X_1, X_2, ..., X_n\}$. Tujuannya adalah menarik kesimpulan struktur intrinsik, distribusi probabilitas dasar, densitas, atau representasi bermakna dalam manifold data. Aplikasi utamanya termasuk klastering, pembelajaran manifold, dan pembelajaran representasi. UL sangat efektif untuk pra-pemrosesan dan rekayasa fitur, memberikan wawasan berharga tanpa bergantung pada masukan manusia eksternal.

Pertanyaan 1
Paradigma pembelajaran mana yang dirancang khusus untuk mengurangi ketergantungan tinggi pada anotasi data manusia yang mahal dengan memanfaatkan data tanpa label yang melimpah?
Pembelajaran Terawasi
Pembelajaran Tak Terawasi
Pembelajaran Semi-Terawasi
Pembelajaran Penguatan
Pertanyaan 2
Jika tugas utama suatu model adalah reduksi dimensi (misalnya, mencari komponen utama) atau klastering, paradigma apa yang secara universal digunakan?
Pembelajaran Terawasi
Pembelajaran Semi-Terawasi
Pembelajaran Tak Terawasi
Pembelajaran Transfer
Tantangan: Menentukan Tujuan SSL
Mengkonseptualisasikan Fungsi Kerugian Gabungan
Berbeda dengan SL yang hanya dioptimalkan berdasarkan keakuratan label, SSL membutuhkan strategi optimasi yang seimbang. Total kerugian harus menangkap akurasi prediksi pada himpunan terlabel sambil menerapkan konsistensi (misalnya, kelancaran atau pemisahan kepadatan rendah) pada himpunan tanpa label.

Diberikan: $D_L$: Data Terlabel. $D_U$: Data Tanpa Label. $\mathcal{L}_{SL}$: Fungsi Kerugian Terawasi. $\mathcal{L}_{Consistency}$: Kerugian yang memaksakan kelancaran prediksi pada $D_U$.
Langkah 1
Tulis bentuk umum dari tujuan optimasi total $\mathcal{L}_{SSL}$, dengan memasukkan koefisien penimbang $\lambda$ untuk komponen konsistensi tanpa label.
Solusi:
Bentuk konseptual dari total kerugian SSL adalah jumlah terbobot dari dua komponen: $\mathcal{L}_{SSL} = \mathcal{L}_{SL}(D_L) + \lambda \cdot \mathcal{L}_{Consistency}(D_U)$. Skalar $\lambda$ mengendalikan kompromi antara keakuratan label dan ketergantungan struktur.